智能论文笔记

End-to-end Speech-to-Punctuated-Text Recognition

Jumon Nozaki , Tatsuya Kawahara , Kenkichi Ishizuka , Taiichi Hashimoto

分类：自然语言处理

2022-07-07

常规的自动语音识别系统不会产生标点符号，这对于语音识别结果的可读性很重要。随后的自然语言处理任务（例如机器翻译）也需要它们。标点符号预测模型上有许多作品将标点符号插入语音识别结果中作为后处理。但是，这些研究并未利用声学信息进行标点符号预测，并且直接受语音识别错误的影响。在这项研究中，我们提出了一个端到端模型，该模型将语音作为输入并输出标点的文本。在使用声学信息时，该模型有望在语音识别错误方面可靠地预测标点符号。我们还建议使用辅助损失，以使用中间层和未插入文本的输出来训练模型。通过实验，我们将提出的模型的性能与级联系统的性能进行比较。所提出的模型比级联系统获得更高的标点符号预测准确性，而无需牺牲语音识别错误率。还证明，使用中间输出针对未插入文本的多任务学习有效。此外，与级联系统相比，提出的模型仅具有约1/7的参数。

translated by 谷歌翻译

我们考虑将每个代理分配一个项目时改革无嫉妒的匹配的问题。给定无嫉妒的匹配，我们考虑一个操作，将代理商与代理人首选的未分配项目交换，从而导致另一种无嫉妒的匹配。我们尽可能地重复此操作。我们证明，由此产生的无嫉妒匹配是唯一确定的，可以在选择初始嫉妒的匹配下进行选择，并且可以在多项式时间中找到。我们称之为由此产生的匹配，是一个不正确的嫉妒的匹配，然后我们研究了最短的序列，以从最初的无嫉妒匹配中获得无嫉妒的嫉妒匹配。我们证明，即使每个代理最多接受四个项目，最短的序列在计算上也很难获得，并且每个项目最多都被三个代理所接受。另一方面，当每个代理最多接受三个项目或最多两个代理接受每个项目时，我们给出多项式时间算法。还讨论了不可Ximibibibibibibility和固定参数（IN）的障碍性。

translated by 谷歌翻译